iT邦幫忙

2023 iThome 鐵人賽

DAY 7
0
自我挑戰組

保健食品建議量查詢網頁功能系列 第 7

Good Input, Good Output

  • 分享至 

  • xImage
  •  

有好的輸入,才有好的輸出結果。不過比較常聽到的應該是 Garbage in, garbage out(參考 wiki https://zh.wikipedia.org/zh-tw/%E5%9E%83%E5%9C%BE%E8%BF%9B%EF%BC%8C%E5%9E%83%E5%9C%BE%E5%87%BA )。總之不管系統或是人都差多,餵什麼,就會長成什麼樣子。

像ChatGPT或一些AI?,感覺好像一瞬間暴紅,不過真的是各種配合因素演化,累積了多少年,天時地利人和,才達到了科幻電影故事的一小步。

以其資料面(伺服器架構,軟硬體技術也都有關,不過這邊就以資料來說)應該是歸功於,從第一台電腦開始,有了資料電子化,網路早期相對無私的資訊分享,還有跟很多年前大資料議題,建了資料倉儲,這些幾十年累積下來的電子化資料。沒有wiki/類wiki,沒有知識型網站,沒有論壇,沒有github,leetcode,stack overflow。更甚沒有人類幾百年來的知識累積有系統的書本、文獻,我就不信ChatGTP會翻議,會寫履歷,會寫程式,還可以查疾病症狀。

有品質的資料是有價值的,在大數據的年代,除了儲存原始資料(文字資料最簡單,但在這年代,影音,圖像資料開始進步了)外,解析,找出相對有價值的資料,大家都有在這邊下工夫。
書籍類,則是書籍電子化,或是書本掃瞄電子化,書有出版社把握文章內容品質,教科書就是更有品質的內容來源。
而網路,系統收集來的,可能是有資料品質分數,或是人眼(可能是無法說明解析的道德標準)這些下去匯整出來的。將各類原始資料轉換成有用的資訊,只是要不要成本?當然是要的阿!就算是請人一筆一筆人眼審核,也是要時薪的。

所以不想要聊天機器人歪掉,資料品質是一個很重要的原因:Garbage in, garbage out。

但不知道是不是我的錯覺,現在的網路內容一年一年的沒有以前那麼單純了。有很多置入性行銷,很多文章農場。
也許發展到一個飽合期(商人就是一直擠,擠到成渣了還能再賣一筆,才是好商人?!),很多早期open source,佛心網站,免費工具...現在都在商業化,以前要特別注意授權,MIT要用就要想很久,現在則是擔心不知道突然幾個月後就要被收費了!

而網路各式爬蟲也是很多,也許有些作者/網站看自己辛苦收集資料,原作者可能花個一兩天,或是多年經驗累積才寫得一篇好文。爬蟲一抓,叫AI重潤一下,或者被轉載斷章取義,都是不用幾分鐘的事情。作者/網站若是無償的,肚子餓了沒空再更新,或只靠熱情被消磨,我覺得也是網路劣幣驅除良幣的原因。在人性本惡上,在網路上自願公開,就是要給人看的,別人想要怎麼用,你也管不到。不想降子的話,就自己多麻煩一點,好好加註自己的著作權聲明,不過一般人也許大多單純到不知道有這回事吧?!資料庫在別人家,資料權就是別人的,一堆網站條款看一看就知道。

還是就...只是人老了...落伍,不懂現在的主流文化了Orz...

該回到正題了XD,這次功能找資料的方向,自己用,就直接依個人喜好,平常會去的網站的資料為主。

政府官方資料:衛福部
「國人膳食營養素參考攝取量」第八版
https://www.hpa.gov.tw/Pages/Detail.aspx?nodeid=4248&pid=12285

食品添加物使用範圍及限量暨規格標準
https://consumer.fda.gov.tw/Law/FoodAdditivesList.aspx?nodeID=521

衛生福利部審核通過之健康食品資料查詢
https://consumer.fda.gov.tw/Food/InfoHealthFood.aspx?nodeID=162

國產維生素類錠狀膠囊狀食品查驗登記證資料查詢
https://consumer.fda.gov.tw/Food/DomesticFormulationsQuery.aspx?nodeID=166

政府網站不少資料內容都可以直接下載,算方便。

康健網站:
康健算是一個很老牌的健康雜誌,以前小時後就有在家裡看到,而且有做知識庫,方便查詢很不錯

官網
https://www.commonhealth.com.tw/

康健知識庫
https://kb.commonhealth.com.tw/library/category/15

康健知識庫營養品查詢
https://kb.commonhealth.com.tw/supplements

康健營養品查詢,就比較屬於工商資訊,不過因為我的出發點,就是要買東西,有列「許可證/核備函字號」的商品讓人相對覺得安心,可以上衛福部的反查。不過還真的很多項 https://www.fda.gov.tw/tc/sitelist.aspx?sid=51 。不過至少有寫有公開,有心人,或同業競爭也會幫忙檢舉。

HEHO:
健康文章很多,也有針對營養做了一個專門的網站

官網
https://heho.com.tw/

營養N次方
https://npower.heho.com.tw/nutrition-supplements

華人健康網:
常在健康類新聞,或是Google後常找找到的出處,文章覺得內容還不錯

官網
https://www.top1health.com/

文章內容,會有關鍵字項目,對於電子化比較方便XD。有駐站醫生,所以文章可能比較多專業人士寫得比較可靠。

在收集資料的時後,來源是多一點比較好。就多看看,再決定那些資料可以用,或怎麼抄回來放到系統內來使用,一邊讀一下,就算沒用上系統,也算多一點常識也沒什麼不好。

政府資訊通常都學術文,或看不懂(我本來就不是醫學專業人士,也沒有天生奇才,有些看不懂應該很正常XDa)。民營商業網站資料,就相對平易近人,好理解。總之這次會以政府提供的資訊為主軸,來做內容基準提供。其他網站資料就找部份相關的做輔助,或是參照比對參考用。


上一篇
一頁企劃練習
下一篇
網路爬蟲,請記得低調有禮貌
系列文
保健食品建議量查詢網頁功能30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言